Credits: based on https: // www.kaggle.com/crawford/principle-component-analysis-gene-expression/notebook

PARTE 1: PCA con los datos de genes de (Golub et al.)

https://www.kaggle.com/crawford/principle-component-analysis-gene-expression/

Datos usados para clasificar pacientes con acute myeloid leukemia (AML) and acute lymphoblastic leukemia (ALL).

Golub et al "Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring"

There are two datasets containing the initial (training, 38 samples) and independent (test, 34 samples) datasets used in the paper. These datasets contain measurements corresponding to ALL and AML samples from Bone Marrow and Peripheral Blood. Intensity values have been re-scaled such that overall intensities for each chip are equivalent.

Analysis steps

  1. Remove columns that contain "Call" data
  2. Transpose the dataframe so that each row is a patient and each column is a gene
  3. Remove gene description header and set the gene accession numbers as the column headers
  4. Split into train/test sets
  5. Scale values to zero mean and unit varaince
  6. PCA analysis
  7. To do: K-means cluster

(1) Load data

Exploratory data analysis

Realiza un análisis exploratorio de los datos (correlaciones entre sí y con las clases, distribuciones,...). Usa las técnicas y gráficos que te parezcan más representativos.

Graficamos el diagrama de correlación entre los atributos.

Vemos como principalemnte predomina el color verde, indicando una correlación 0 entre la mayoría de atributos. Aún así podemos ver suficientes tonos azulados o rojidos, indicandonos que hay varios atributos muy correlacionados.

(2) Principle Component Analysis

The analysis reveals that 21 principle components are needed to account for 80% of the variance. PC 1-3 add up to about ~33% and the rest is a slow burn where each component after PC8 contributes between 1-2% of the variance up until PC38 which is essentially zero. 1% is a decent amonut of variance and so the number of important PCs is up for interpretation.

Pregunta (1): ¿Qué pauta puede observarse en los valores de var_exp? ¿Cuál es la interpretación relativa de esos valores?

Podemos observar la distinta varianza que aporta cada variable. La interpretación relativa nos explica el total de varianza según se van añadiendo variables al modelo

(3) Projection of first three components

The first three components only explain 33% of the variance but we'll go ahead plot the projection to get a visual of it.

Pregunta(2): Modificando la perspectiva de la figura con el ratón, ¿qué observas en cuanto a la separabilidad de las clases? Adjunta una imagen que apoye tus conclusiones.

Aquí aportamos diferentes capturas que nos ayudarán a ver las potenciales diferencias de cada eje.

TOP%20VIEW%20-%20X.png

Se puede ver que la clase roja toma los valores de Y mas pequeños [-40, -20], Y la clase azul toma los mas grandes, entre [-20, 40], incluso con outlayers que toman valores 80 o superiores a 100.

Size%20View%20Z%20-%20Y%20-.png

Se puede ver que la clase roja toma los valores de Z mas grandes, van de [0,50], mientras que ka clase azul toma valores Z mas pequeós, entre [-40,0]

Front%20View%20XZ.png

En cuanto al eje X podemos observar que la clase roja eliminando los dos valores mas extremos o outlayers, tienden al valor 20, estableciendose entre el siguiente rango de valores de [0,40]. La clase azul toma todos los valores, concentrandose en X[0.-40] principalmente, pero también tomando valores de [0,60]. Principalmente, podríamos decir que la clase azul para el eje X es dividido en el numero 0, donde no hay casos, con una mayor condensacion para X negativa

Con estas conclusiones, sería posible asumir: Que si una variable, para los ejes de manera [X,Y,Z], a grandes rasgos puede ser clasificada de las siguientes maneras:

Pertenecerá a la clase roja si toma los valores:

$$[x>0, y<0, z>0]$$

En cambio pertenecerá a la clase azul si toma los valores de la forma:

$$[x != 0 || x < 0, y>0, z<0]$$

Parte 2: Linear Discriminant Analysis

Realizar un análisis similar usando LDA, usando en este caso la información sobre el tipo de cancer de cada paciente. Puedes seguir la guía en

Parte 3: Clustering

Utiliza k-means clustering con los datos originales y con los datos proyectados con PCA y LDA. ¿Qué observas?

Observamos como el cluster mas ddefinido es el de LDA, a pesar de tener solo 1 dimensión. Esto es porque LDA, hace clasficación sobre las clases, y luego hacemos clustering sobre esa clasificación, por eso queda tan bien definido y separados los clústers.

En cambio en PCA, como su objetivo es la representación en en menos dimensiones sin clasificación, a la hora de hacer clustering, no vemos resultados mejores que con los datos originales.

Con los datos originales tampoco obtenemos unos clusters bien definidos, los datos están bastante dispersos. Por lo que podemos concluir que la mejor forma de hacer clustering es aplicar antes LDA, que gracias a su clasificación, nos da 2 cluesters muy definidos.